为了确保在实际系统中加固学习的有用性(RL),确保它们对噪声和对抗性攻击至关重要。在对抗RL中,外部攻击者有能力操纵受害者与环境的互动。我们研究了整个在线操纵攻击,其中包括(i)国家攻击,(ii)观察攻击(这是对状态的概括),(iii)行动攻击和(iv)奖励攻击。我们表明了攻击者设计的隐形攻击问题,该攻击最大化了其自身的预期奖励,通常与最小化受害者的价值相对应,这是由马尔可夫·德克尼(Markov DeSision)过程(MDP)捕获的,我们称之为元MDP,因为它不是真实的环境,而是通过攻击互动所带来的更高级别的环境。我们表明,攻击者可以通过在多项式时间进行计划或使用Standard RL技术进行多项式样本复杂性来得出最佳攻击。我们认为,可以将受害者的最佳防御政策计算为对Stochastic Stackelberg游戏的解决方案,可以将其进一步简化为基于部分的基于转弯的随机游戏(POTBSG)。攻击者和受害者都不会从各自的最佳政策中受益,因此这种解决方案确实很健壮。尽管防御问题是NP-HARD,但我们表明在许多情况下,可以在多项式时间(样本复杂性)中计算(学习)最佳的马尔可夫防御。
主要关键词
![arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第1页](/bimg/0/0f5533ebbe46e54453c65000601f20bf0582f7dd.webp)
![arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第2页](/bimg/e/e6726ac8b771b6fe60fbb4cf38e0c2cbcc29a6d1.webp)
![arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第3页](/bimg/7/7a80b70e1b7c8920caabb2ce9675be147b4a0014.webp)
![arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第4页](/bimg/9/9827e5561faf10fe79bdcab162ca93b5ed753986.webp)
![arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第5页](/bimg/2/2741cb984581edb1a859898569a5de7b4ff66d3a.webp)
